BUNDESREPUBLIK D^U 



PRIORITY 
DOCUMENT 

SUBMITTED OR TRANSMITTED IN 
COMPLIANCE WITH RULE 17.1(d) OR (b) 




0/52659 5 
|jf9 7 04 MAR 2005 




Prioritatsbescheinigung iiber die Einreichung 
einer Patentanmeldung 



Aktenzeichen: 
Anmeldetag: 

Anmelder/lnhaber: 

Bezeichnung: 

IPC: 



103 15 295.4 



04. April 2003 



bec'o 26 MAR 2004 



WIPO 



PCT 



PACT XPP Technologies AG, 80939 Munchen/DE 



Verfahren und Vorrichtung fOrdie Datenverarbeitung 



G 06 F 12/08 



Die angehefteten Stucke sind eine richtige und genaue Wiedergabe der 
sprUnglichen Unterlagen dieser Patentanmeldung. 



ur- 




Munchen, den 12. Marz 2004 
Deutsches Patent- und Markenamt 
Der President 

lm Auftrag 



BEST AVAILABLE COPY 



.» 
i 



Akte; PACT101 



« • 4 • « • 

• • • 4 * 1 • • 

• • •««• • • 4 • 

ft * f " - 



Deutsche Pat entanme Idling 

Anmelder:' PACT XPP Technologies AG- 
Muthmannstrasse 1 
5 D-80939 Munchen, 




© 



10 




15 



Vertreter: Patentanwalt 

Claus Peter Pietruk 
Heinrich-Lilienfein-Weg 5 
i D-76229 Karlsruhe . 
Vertreter-Nr. "321 '605 

Titel : Verf ahren und Vorrichtung 

fur die Datenverarbeitung 



Zusammenf as sung 



20 




Die Erfindung betrifft eine Datenverarbeitungsvorrichtung mit 
einem Datenverarbeitungslogikzellenfeld und zumindest einer 
Sequenziell-CPO. Hierbei ist vorgesehen, dass eine Ankopplung 
der Sequenziell-CPU unci des Datenverarbeitungslogikzellenfel- 
des zura Dat'enaustausch in insbesondere blockweiser Form durcti 
zu einem Cache-Speicher fiihrende Leitungen moglich ist. 
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Beschreibung . 

Die vorliegende Brfindung betrifft das oberbegrif f lich Bean- 
spruchte und.befasst sich somit mit Verbesserungen bei der ' 
Verwendung'von rekonfigurierbaren Prozessortechnologien f Ur ' 
die Datenverarbeitung- 

Verwiesen wird bezttglich des bevorzugten Aufbaus von Lo- 
gikzellenfeldern auf die XPP-Architektur und vorverdffent- 
lichte sowie' jiingere Schutzrechtsanmeldungen des vorliegenden 
Anraelders, die zu Offenbarungszwecken vollumfanglich .einge- 
gliedert sind. Erwahnt seien somit insbesondere die 
DE 44 16 881 Al, DE 197 81 412 Al, DE 197.81 483 Al, 
DE 196 54 846 Al, DE 196 54 593 Al, DE 197 04 044.6 Al, 
DE 198 80 129 Al, DE 198 61 088 Al, DE 199 80 312 Al, 
PCT/DE 00/01869, DE 100 36 627 Al, DE 100 28 397 Al, 
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DE 101 10 530 Al, DC 101 11 014 Al, PCT/EP 00/10516, 

EP 01 102 674A1,- DE 198 80 128 Al, DE 101 39; 170 Al, . 

DE 198 09 640 Al, DE 199 26 538.0 Al, DE iOO 50 442 Al; sowie 

die PCT/EP 02/02398,. DE 102 40 000, DE 102 02 044, 

DE 102 02 175, DE 101 29 237, DE 101 42 904, DE 101 35 210, 

EP 01 129 923, PCT/EP 02/10084, DE 102 12 622, DE 102 36 271, 

DE 102 12 621, EP 02 009 868, DE 102 36 272, DE 102 '41 8.12, 

DE 102 36 269, DE 102 43. 322, EP 02 022 692, ebenso wie die 

EP 02 001 331 und die EP 02 027 277. 



Ein Problem bei herkommlichen Ansatzen zu rekonfigurierbaren 
Technologien besteht dann, wenn die Datenverarbeitung primar 
auf einer sequenziellen CPU unter Hinzuziehung eines konfigu- 
' rierbaren Datenverarbeitungslbgikzellenf eldes oder derglei-r 
15 chen erf olgen. soil. und/oder eine Datenverarbeitung gewiinscht 
■ ist, in' der viele und/oder umfangreiche sequenziell auszufiih- 
. rende Verarbeitungsschritte vorliegen. 

Es sind Ansatze bekannt, die sich damit befassen, wie eine ' 
20 Datenverarbeitung sowohl auf einem konfigurierbaren Datenver- 
arbeitungslogikzellenfeld als auch auf einer CPU erf olgen 
kann. , . ■ 

So ist aus der WO 00/4 9496 ein Verfahren zum Ausfiihren eines 
25 Computerprogrammes mit einem Prozessor bekannt, der eine kon- 
figurierbare funktionelle Einheit umfasst, die in der Lage 
ist, rekonfigurierbare Anweisungen- auszuftihren, deren Ef fekt 
zur Laufzeit durch Laden eines Konf igurationsprogrammes rede- 
finiert werden kann, wobei das Verfahren die Schritte urn- 
30 fasst, daft Kombinationen rekonfigurierbarer Anweisungen aus- 
gewa'hlt, ein respektives Konfigurationsprogramm far jede Kom- 
bination erzeugt und das Computerprograirati ausgefuhrt wird. 
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Dabei soli jedes Mai, wenn.eine Anweisung aus einer der Kom- 
binationen wahrend der Ausftthrung gebraucht wird und die kon- 
•figurierbare funktionelle Einheit nicht mit dem Konfigurati- 
onsprogramm far diese Kombination konfiguriert ist," das Kon- 
5 figurationsprogramm far alle der Anweisungen der Kombination 
in die konfigurierbare funktionelle Einheit geladen werden. 
Weiter ist aus der WO 02/50665 Al eine Datenverarbeitungsvor- 
richtung mit einer konf igurierbaren funktionellen Einheit be- 
kannt, wobei die konfigurierbare funktionelle Einheit dazu 
10 -dient, eine Anweisung gemafl einer konf igurierbaren Funktion 
auszufahren. Die konfigurierbare funktionelle Einheit weist 
eine Vielzahl von uriabhangigen konf igurierbaren Logikblocken ' 
zum AusfUhren programmierbarer Logikoperationen auf , urn die 
konfigurierbare Funktion zu implement! eren. Konfigurierbare 
15 Verbindungsschaltkreise sind zwischen den Iconf igurierbaren 
Logikblocken und sowohl . den Eingangen als auch den Ausgangen 
der konf igurierbaren funktionellen Einheit vorgesehen. Dies 
erlaubt eine .Optimalisierung der Verteilung von Logikfunktio- 
nen Uber die konf igurierbaren LogikblQcke. 

20 

Ein Problem bei herkomralichen Architekturen besteht dann, 
wenn eine Ankopplung erfolgen soil und/oder Technologien wie 
Datastreaming, Hyperthreading, Multithreading und so weiter 
in sinnvoller und Performance steigernder Weise ausgenutzt 
25 werden sollen. Die beispielhaft erwahnte Technologie der -vor- 
zitierten Nicht-Anmelder-Dokumente zeigtetwa eine Anordnung, 
bei der zwar Konfigurationen in ein konfigurierbares Daten- 
verarbeitungslogikzellenfeld geladen werden konnen, bei wel- 
chen allerdings der Datenaustausch zwischen der ALU der CPU 
30 und dem konf igurierbaren Datenverarbeitungslogikzellenfeld, 
. sei es ein FPGA, DSP oder dergleichen, aber die Register er- 
folgt. Mit anderen Worten mttssen Daten aus einem Datenst.rom 
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zunachst • sequenziell in Register geschrieben werden und dann 
sequenziell wieder in- diesen abgelegt werden. Audi. ist ein • 
Problem dann gegeben, wenn ein Zugriff auf Daten von -extern 
erfolgen soil, da selbst dann noch Probleme beim zeitlichen 
5 Ablauf der Datenverarbeitung im Vergleich- zur ALU und bei der 
Zuweisung von Konfigurationen und so weiter bestehen. Die 
herkommlichen Anordnungen, wie sie aus den Nicht-Anmelder- 
eigenen.Schutzrechten bekannt sind,. werden unter anderem dazu 
•verwendet, Funktionen im konfigurierbaren Datenverarbeitungs- 
10 logikzellenfeldv DFP f FPGA oder dergleichen abzuarbeiten, die 
.nicht effizient auf. der CPU-eigenen ALU abzuarbeiten sind. 
Damit/wird das konfigurierbare Datenverarbeitungslogikzellen- 
feld praktisch verwendet, urn benutzerdef inierte Opcodes zu 
ermoglichen, ■ die eine effizientere. Abarbeitung von Algorith- 
15 men ermoglichen, als dies auf dem ALU-Rechenwerk der CPU ohne 
. konfigurierbare Datenverarbeitungslogikzellenf eldun'terstiit- . ' 
zung moglich ware. 

Im Stand der Technik ist, wie erkannt wurde, die Ankopplung 
20 demnach im Regelfall wortbasiert, nicht jedoch blockbasiert, ' 
Wie es zur datenstrQmenden Verarbeitung. erforderlich ware. Es 
ist zunachst wtinschenswert,. eine effizientere -Datenverarbei- 
tung zu ermoglichen, als dies' mif einer engen Ankopplung uber 
Register der Fall' ist. 



25 



50 



Eine weitere Moglichkeit. zur Verwendung von Logikzellenfel- 
dern aus grob- und/oder feingranul.ar gebauten Logikzellen und 
Logikzellenelementen besteht in einer sehr losen Ankopplung 
eines sqlchen Feldes an eine herkQmmliche CPU und/odfer ein 
CPU-Kern bei eingebetteten Systemen. Hierbei kann ein her- 
kommliches, sequenzielles Programm auf einer CPU oder der- 
■gleichen laufen, beispielsweise ein in C, C++ oder derglei- 



Akte: PACT101 



• • • • • . 

• • • • • • • i 

• •••• . . . .... . ; 



10 



^chen geschriebenes Programm, 'wobei von diesem Aufrufe einer 
Datenstromverarbeitung auf dem fein- und/oder. grobgranularen 
Datenverarbeitungslogikzellenfeld.instantiiert werden. Pro- 
blematisch ist dann, dass beim Programmieren fQr dieses Lo- 
gikzellenfeld ein nicht in C oder einer anderen sequenziellen 
Hochsprache geschriebenes Programm fur die Datenstromabarbei- 
tung vorgesehen werden muss. Erwunscht ware hier, dass sowbhl 
auf der herkbmmlichen CPU-Architektur als auch auf einem mit 
diesen gemeinsam betriebenen Datenverarbeitungslogikzellen- 
feld C-Programme oder dergleichen abzuarbeiten sind> das 
heiBt, dass insbesondere mit dem Datenverarbeitungslogikzel- 
lenfeld in quasi sequenzieller Programmabarbeitung dennoch 
eine Datenstromfahigkeit erhalteri bleibt, wahrend simultan 
auch insbesondere moglich bleibt, dass ein' CPU-Betrieb in 
15 nicht zu loser Ankopplung moglich ist. Es 'ist auch bereits 

bekannt, innerhalb einer Datenverarbeitungslogikzellenfeldan- . 
_ ordrtung, wie sie insbesondere aus PACT 02 (DE 196 51 .075.9-53, 
WO 98/26356), PACT 04 (DE 196 54 846.2-53, WO 98/29952), 
PACT08, (DE 197 04 728.9, WO 98/35299) PACT 13 (DE 199 26 
20 538.0, WO 00/77652) PACT31 -(DE 102 12 621.6-53, PCT/EP 

. 02/10572) bekannt ist, auch eine sequenzielle Datenvefarbei- 
tung innerhalb des Datenverarbeitungslogikzellenfeldes vorzu- 
sehen. Hierbei wird dann allerdings innerhalb einer einzelnen 
Konfiguration,- beispielsweise um Ressourcen zu sparen, eine 
5 Zeitoptimierung zu erzielen und so weiter, eine partielle Ab- 
arbeitung erzielt, ohne dass diese bereits dazu fahrt, dass • 
ein Programmierer ein Stack Hochsprachencode automatisch 
leicht ohne weiteres auf ein Datenverarbeitungslogikzelleh- 
■ feld umsetzeh karin, wie dies bei herk5mmlichen Maschinenmo- ' 
dellen fvir sequenzielle Prozessoren der Fall ist. Die Umset-r 
zung von Hochsprachencode auf Datenverarbeitungslogikzellen- 
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felder nach Prinzipien .der Modelle far sequenziell arbeitende 
Maschinen ist weiterhiji schwierig. 

Aus dem Stand der Technik ist weiter bekannt, dass .mehrere 
5 Konfigurationen, die eine jeweils unterschiedliche Funktions- 
. weise von Arrayteilen bewirken, simultan auf dem Prozessor- 

feld (PA) abgearbeitet werden konnen und dass ein Wechsel von 
' einer oder einigen der Konf iguration (en) ohne Storung anderer - 
zur Laufzeit erfolgen kann. Es sind Verfahren und. in Hardware 
10 implementierte Mittel zu deren Umsetzung bekannt, wie sicher- 
gestellt werden kann, dass dabei ein Abarbeiten von auf das 
Feld zu ladenden Teilkonf igurationen ohne Deadlock erfolgen 
kann. Verwieseh wird hieirzu insbesondere auf die die Filmo- 
Technik betreffenden Anmeldungen PACT 05 (DE 196 54 593.5-53, 
15 ' WO 98/31102) PAGT10 (DE 198 07 872.2, WO '9^9/44147, WO 

99/44120) PACT 13 (DE 199 26 538.0, WO 00/77652)/ PACT 17 (DE 
100 28 397.7, WO 02/13000). Diese Technologie ermoglicht in 
gewisser Weise bereits eine Parallelisierung und, bei ent- 
sprechender Gestaltung und Zuordnung der Konfigurationen, 
20 auch eine Art Multitasking/Multithreading und zwar derge- 
stalt^ dass eine Planting, das heiflt ein Scheduling und/oder 
eine Ze'itnutz'ungsplanungssteuerung vorgesehen ist. Es sind 
k also aus .dem Stand der Technik schon Zeitnutzungsplanungs- • 
W steuerungsinittel und -verfahren per. se bekannt, die, zumin- 
25 dest unter entsprechender Zuordnung von Konf igurationen . zu 

einzelnen Aufgaben und/oder Faden zu Konfigurationen und/oder 
Konfigurationsfolgen, ein Multitasking und/oder Multithrea- 
ding erlauben. Die Verwendung solcher Zeitnutzungsplanungs- 
■steuermittel, die im Stand der Technik zur Konf igurierung 
30 und/oder Konf igurationsverwaltung verwendet wurden, . zu Zwek- 
ken des Scheduling von Tasks, Threads, Multi- und Hyper- 
threads wird per se als erfinderisch angesehen.- 
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Wunschenswert ist auch zumindest qem'ab einem Teilaspekt in 
bevorzugten Varianten, moderhe Technologien der ' Datenverar- 
beitung und Programmabaibeitung wie Multitasking, Multithrea- 
5 ding, Hyperthreading unterstUtzen zu konnen, zumindest in be- 
.vorzugten' Varianten. einer Halbleiterarchitektur . 

Der Grundgedanke der Erf indung besteht darin, Neues fur die 
gewerbliche Anwendung bereitzustellen. 

Die Losung dieser Aufgabe wird in unabhMngiger ; Form bean- 
sprucht Bevorzugte Ausftihrungsformen finden sich in den Un- 
teranspruchen. 

15 Ein erster wesentlicher Aspekt der vorliegfenden Erfindung ist 
somit darin zu-sehen, dass dem Datenverarbeitungslogikzellen- 
feld Daten im Ansprechen auf die Ausfiihrung einer Ladekonfi- 
guration durch das Datenverarbeitungslogikzellenf eld zuge- 
fuhrt .werden und/oder Daten aus diesem Datenverarbeitungslo- 
20 gikzellenf.eld weggeschrieben (STORE) werden, indem eine 

STO'RE-Konfiguration entsprechend abgearbeitet wird. Diese La- 
de- und oder Speicherkonf igurationen sind dabei bevorzugt 
k . derart auszugestalten, dass innerhalb des Datenverarbeitungs- 
r logikzellenfeldes direkt oder indirekt Adressen jener Spei- 
25 cherstellen generiert werden, auf welche ladend und/oder 

speichernd direkt oder indirekt zugegriffen werden soli. Es 
ist durch diese Einkonf iguration von Adressgeneratoren inner- 
halb einer Konf iguration ntfglich, -eine Vielzahl von Daten in 
das Datenverarbeitungslogikzellenfeld e.inzuladen, wo sie ge- 
30 gebenenfalls ininternen Speichern (iRAM) ablegbar sind 
, m und/oder, wo sie in internen Zellen wie EALUs mit Registern 
• * und/oder dergleichen eigenen Speichermitteln abgelegt werden 
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kdnnen..Die Lade- beziehungsweise Speicherkonf iguration er-- 
moglicht somit ein blockweises und nahezu datenstromartiges, 
insbesondere gegenUber Einzelzugrif f vergleichsw.eises schnel- 
les Laden von Daten und es kann eine solche Lade-Konf igura- 
5 tion ausgefuhrt werden vor einer oder mehreren tatsachlich 
Daten auswertend und/oder, verandernd abarbeitenden Konfigur'a- 
tion(en), mit welcher/n die vorab geladenen Daten verarbeitet 
werden.^ Das Datenladen kann dabei typisch bei grollen Logik- 
zellenfeldern in kleinen Teilbereichen derselben geschehen, 
wahrend andere Teilbereiche mit anderen Aufgaben befaJit sind. 
Bei der in- anderen verof fentlicht'en Dokumeni;en des Anmelders : 
beschriebenen Ping-Pong-artigen Datenverarbeitung, bei der 
auf beiden Seiten eines Datenverarbeitungsfeldes Speicherzel- 
len vorgesehen sind, wobei die Daten in einem ersten Verar- 
beitungsschritt von dem Speicher auf der 'einen Seite durch 
das Datenverarbeitungsfeld zum Speicher auf der- anderen Seite 
strSmen, dort die beim ersten Felddurchstromen erhaitenen 
Zwischenergebnis.se im zweiten Speicher abgelegt werden, gege- 
benenfalls das Feld umkonf iguriert wird, die Zwischenergeb- 
nisse dann fur die Weiterverarbeitung zuriickstromen usw., 
kann etwa eine Speicherseite durch eine LOAD-Konfiguration in 
einem Array-Teil mit neuen- Daten vorgeladen werden, wShrend 
aus der gegenuberliegenden Speicherseite Daten mit einer 
STORE-Konf iguration in einem anderen Array-Teil weggeschrie- 
ben werden. Dieses simultane LOAD/STORE-Vo'rgehen ist im ubri- 
gen auch ohne raumliche Speicherbereichstrennung mSglich. 

Das Laden kann insbesondere aus einem Cache und in diesen 
hinein erfolgen. Dies hat die Vorteile, dass die externe Kom- 
munikation mit groiiereh Speicherbanken ttber den Cachecbntrol- 
ler gehandhabt wird, ohne dass innerhalb des Datenverarbei- 
tungslogikzellenfeldes separate Schaltanordnungen dafiir vor- 
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gesehen sein mtissen, dass der Zugriff in lesender oder 

i 

schreibender Weise bei Cache-Speichermitteln typisch sehr 
•schnell und mit allenfalls geringer Latenzzeit erfolgen wird 
• urid dass auch typisch eine CPU-Einheit, dor.t typisch uber ei- 
5 he separate LOAD/ STORE-Einheit, an diesen Cache angebunden 
ist, sodass ein Zugriff auf Daten und ein' Austausch derselben 
zwischen CPU-Kern und Datenverarbeitungslogikzellenf eld 
blockweise schnell und derart erfolgen kann, dass nicht fur • 
jedes Obergeben von Daten ein separater Befehl etwaaus dem 
10 OpCode-Fetcher der CPU abgeholt und verarbeitet werden muss. 

Es erweist sich diese' Cacheankoppelung auch als wesentlich 
giinstiger als eine Ankopplung eines Datenverarbeitungslor 
gikzellenfeldes an die ALU iiber Register, wenn diese Register 
15 nur uber eine LOAD/STORE-Einheit mit einerff Cache kommunizie- 
ren, wie dies aus den Nicht-PACT-eigenen zitierten Schriften 
.per se bekannt ist. 

Es kann eine weitere Datenverbin'dung' zu der Lade/Speicher- 
20 einheit der oder einer dem Datenverarbeitungslogikzellenf eld 
■ zugeordneten Sequenziell-CPU-Einheit vorgesehen sein und/oder 
zu deren Register. 

Es sei erwahnt, dass ein Ansprechen derartiger Einheiten uber 
15 separate Eingangs-Musgangsanschlusse (IO-Ports) der insbe- 
sondere als VPU beziehungsweise xpp' ausgestaltbaren Datenver- 
arbeitungslogikzellenanordnung erfolgen kann und/oder durch. 
einen oder mehrere einem Einzelport nachgeschaltete Multiple- 
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Dass neben dem insbesondere blockweisen und/oder . streamenden 
und/oder im Random-Access, insbesondere im- RMW-Modus (Read- 
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• Modify-Write-Modus)'. erfolgenden Zugriff auf Cache-Bereiche .in 
schreibender und/oder lesender Weise und/oder die LOAD/STORE- 
Einheit und/oder die (per se im Stand der Technik bekannte) 
Verbindung mit dem Register der Sequenziell-CPU auch. eine 
5 Verbindung mit einem externen Massenspeicher wie einem RAM, • 
einer Festplatte und/oder einem anderen Datenaustauschport 
wie einer Antenne und so weiter erfolgen kann-, *.sei auch er- 
wahnt. Es kann fUr diesen' Zugriff auf Cache- und/oder LOAD/ 
STORE-Einheit- und/oder registereinheitverschiedene Speicher- . 
10 mittel ein separater Port- vorgesehen- sein. Dass hier geeigne- 
te Treiber, Signalaufbereiter fiir Pegelanpassung und" so wei- 
ter vorgesehen sein konnen, sei erwahnt. Im Obrigen sei er- 
wahnt, dass insbesondere, jedoch. nicht .ausschliefilich zur ' 
Aufbereitung eines in das Datenverarbeitungslogikzellenfeld ' 
15 hineinstromenden ■ oder in diesem- stromendert Datenstrom die Lo- 
' gikzellen des Feldes ALUs bzw. EALUs umfassen kdnnen und'ty-. 
pisch werden, denen eingangs- und/oder ausgangsseitig, insbe- 
sondere sowohl eingangs- als auch ausgangsseitig kurze, fein- • 
granular konfigurierbare, FPGA-artige Schaltkreise vorgesetzt 
20 sein konnen, urn etwa aus einem kontinuierlichen Datenstrom 
Vierbitblocke herauszuschneiden, wie dies fQr die MPEG-4- 
Dekodierung erforderlich ist. Es ist dies z'um einen vorteil- 
haft, wenn ein Datenstrom in die Zelle hineingelangen soli 
und dort ohne Blockierung von grofleren PAE-Einheiten einer 
25 Art Vorverarbeitung zu uriterwerfen ist. Dies ist auch dann 

von ganz besonderem Vorteil, wenn die ALU als SIMD-Rechenwerk • ' 
ausgestaltet wird, wobei dann ein sehr breites Dateneingangs- 
wort von zum Beispiel 32 Bit Datenbreite tiber die vorgeschal- 
teten FPGA-artigen Streifen aufgespalten wird in mehrere pa- ' 
30 • rallele DatenwSrter von zum Beispiel 4 Bit Breite, die dann 
\ in den SIMD-Rechenwerken parallel abgearbeitet werden konnen, . 
was die Gesamtperformance des Systems signifikant zu erhohen 
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vermag, sofern ehtsprechende ,Anwendung benotigt werden. Es 
sei darauf hingewiesen, dass. vorstehend von FPGA-artigen vor- 
beziehungsweise nachgeschalteten Strukturen die Rede war. Mit 
FPGA-artig muss aber, was explizit erwahnt sei, nicht zwin- 
5 gend Bezug genommen sein auf 1-Bit-granulare Anordnungen. '.Es 
ist insbesondere moglich, " statt dieser hyperfeingranularen 
Strukturen lediglich f einer granulare Strukturen von zum Bei- 
spiel 4 Bit Breite vorzusehen. Das heiflt, die FPGA-artigen 
Eingangs-. und/oder Ausgangsstrukturen vor und/oder nach einer 
10 insbesondere als SIMD T Rechenwerk ausgestalteteh ALU-Einheit 
sind so konfigurierbar, dass immer 4 Bit breite' Datenworter 
zugefilhrt; und/oder verarbeitet werden. Es ist . maglich, hier 
eine Kaskadierung vorzusehen, so. dass zum Beispiel die ein- 
kommenden .32 Bit breiten Datenworter in 4 separierte bzw. se - 
15 parierende 8-Bit-FP.GA-artige, nebeneinander angeordnete . 

Strukturen stromen, diesen" 4 Sttick 8 Bit breiten FPGA-artigen 
. Strukturen ein zweiter Streifen mit 8 Stuck 4 Bit breiten 
• FPGA-artigen Strukturen nachgesetzt ist, und gegebenenfalls 
nach einem weiteren derartigen Streifen dann, sofern, dies fur 
den jeweiligen Zweck als erfo.rderlich erachtet wird, zum Bei-. 
spiel 16 Stuck parallel nebeneinander angeordnete 2 Bit brei- 
te FPGA-artige Strukturen vorgesehen werden. Wenn dies der • 
Fall ist, kann gegenUber rein hyperf eingranular FPGA-artigen 
Strukturen eine betrachtliche Verringerung des Konfigura- 
tionsaufwandes erzielt werden. Dass dies uberdies dazu fiihrt, 
dass der .Konfigurationsspeicher und so weiter der FPGA- 
artigen Struktur wesentlich kleiner ausfallen kann und somit 
eine.Einsparung an Chipflache erzielt wird, sei erwahnt. 

30 Prinzipiell sind die vorstehend beschriebenen Kopplungsvor- . 
. teile bei Datenblockstromen Ober den Cache prinzipiell er- 
reichbar;' besonders bevorzugt. ist es jedoch, wenn der Cache 
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streifenweise (slice-artig) ' aufgebaut ist und dann ein Zu- 
griff auf mehrere der Slices simultan erfolgen kann, insbe- 
sondere auf alle Slices gleichzeitig. Dies ist dann vorteil- 
haft, wenn, was noch. erSrtert werden wird, auf dem Datenver- 
• 5 a f beitun gsl'ogikzellenfeld (XPP) und/oder der ,Sequenziell-CPU 
u.nd/oder den Seguenziell-CPUs eine Vielzahl von Threads abzu- 
arbeiten sind, . sei es im Wege des Hyperthreadings, des Multi- 
taskings und/oder des Multithreadings. . Es sind also; bevorzugt 
Cachespeichermittel rait Scheibenzugriff bzw. Scheibenzu- 
10 griffsermoglichungssteuermitteln' vorgesehen. Es kann dabei z. 
B.. jedem Thread eine eigene Scheibe • zugeordnet werden.' Dies 
errtioglicht es spater, beira Abarbeiten der Threads sicherzu- 
stellen, dass jeweils auf. die entsprechenden Cachebereiche 
bei Wi'ederaufnahrae der rait dem Thread abzuarbeitenden Be- 
15 fehlsgruppe zvigegriffen wird. 

Es sei noch einmal. erwahnt, dass der. Cache : nicht zwingend in 
• Slices unt'erteilt sein muss, und dass, wenn dies der Fall 
ist, .nicht zwingend jeder Slice einera eigenen Thread zugewie- 
sen werden muss. Es sei allerdings darauf hingewiesen,- dass 
dies die bei wei'tem bevorzugte. Methode ist. Es sei weiter 
darauf hingewiesen, dass es Falle geben, kann, in denen nicht 
alle Cache-Bereiche simultan oder zu einer gegebeneh Zeit • 
teraporar benutzt werden. .Vielmehr ist zu erwarten,' dass bei 
5 typischen Datenverarbeitungsanwendungen, wie sie in handge- 
haltenen mobilen Telefonen (Handys) , Laptops, Kameras und so 
weiter auftreten werden, haufig Zeiten vorliegen werden,. in 
denen nicht der gesamte Cache benotigt wird. Es ist daher be- 
sonders bevorzugt, wenn einzelne Cache-Bereiche von der Lei- 
) stungsversorgung derart trennbar sind, dass ihr ■ Energiever- 
, brauch signifikarit absinkt, insbesondere auf oder nahe null. 
Dies kanh bei sliceweiser Ausgestaltung des Caches durch' sli- 
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ceweise Abschaltung- derselben uber geeignete Leistungsab- 
trennmittel geschehen. Die Abtrennung kann entweder ilber eine 
Heruntertaktung, Taktabtrennung oder eine Leistungsabtrennung 
, erfolgen. Es kann insbesondere einer einzelnen Cache-Scheibe 
5 oder dergleichen eine Zugriff serkennung zugeordnet- sein, wel- 
che dazu ausgebildet ist, zu erkennen f ob ein j'eweiliger 
Cache-Bereich beziehungsweise eine jeweilige 'Cache-Scheibe 
momentan einen ihiu zugeordneten Thread, Hyperthread oder Task 
hat, von welchem er benutzt wird. Sofern dann vom Zugriffser- 
10 kennungsmittel festgestellt wird, dass dies nicht der Fall 

ist, wird typisch eine; Abtrennung vom Takt und/oder sogar der 
Leistung moglich sein.- Es sei Qrwahnt, dass bei Wiederein- 
schalten der Leistung nach einent Abtrennen ein spfortiges 
Wiederansprechen des Cachebereiches moglich ist, also keine 
15 signifikante Verzogerung durcH das An- urid Ausschalten der 

Leistungszufuhr . zu erwarten ist, sdf.ern mit g^ngigen geeigne- 
ten Halbleitertechnologien eine Implementierung in Hardware 
erfolgt.' 

20 Ein weiterer besonderer Vorteil, • der sich bei der vorliegen-' 
den Erfindung ergibt, besteht darin, dass zwar eine besonders 
effiziente Kopplung beziiglich des Dbertrags von Daten bezie- 
hungsweise Operanden in insbesondere blockweiser Form gegeben 
ist, dass aber dennoch ein Balancing nicht in der Weise er- 
25 forderlich ist, dass die exakt gleiche Verarbeitungszeit in 
•Sequenziell-CPU und XPP beziehungsweise Datenverarbeitungslo- 
gikzellenfeld erforderlich ist. Vielmehr erfolgt die Verar- 
beitung in einer praktisch oftmals unabhangigen Weise, insbe- 
sondere derart, dass die Sequenziell-CPU und die Datenverar- 
30 beitungslogikzellenf eldanordnung fur einen Scheduler oder 
dergleichen als separate Ressourcen betrachtbar sind. Dies 
erlaubt eine sofortige Umsetzung bekannter Datenverarbei- 



- 13 - 



Akte: PACT101 _ • : 



• • • • • 



tungsprograramaufspaltungstechnologien wie Multitasking, Mul- 
tithreading und Hyperthreading. Der sich ergebende Vorteil, 
dass ein Pfadbalancing nicht erforderlich ist, fuhrt dazu, 
.dass beispielsweise in der Sequenziell-CPU .beliebige Anzahlen 
5 von Pipelinestufen durchlaufen werden konnen, Taktungen in 
unterschiedlicher Wei'se mogliche sind und so weiter. Ein wei- 
terer Vorteil der vorliegenden Erfindung besteht darin, dass 
durch das Hineinkonfigurieren einer Ladekonf iguration bezie- 
hungsweise einer Storekonfiguration in das XPP oder andere 
10 Datenverarbeitungslogikzellenf elder die Daten in das Fe'ld mit 
einer Geschwindigkeit hineingeladen werden oder aus diesem • 
herausgeschrieben werden konnen, die nicht mehr bestinunt ist 
durch die Taktgeschwindigkeit der CPU/ die Geschwindigkeit, . 
mit-welcher der OpCode-Fetcher arbeitet, oder dergleichen. 
.5- Mit anderen Wprteri ist die Ablaufsteuerurig der Sequenziell- 
. CPU nicht mehr f laschenhalsartig begrenzend far den Daten- 
durchsatz des Datenzellenlogikfeldes, ohne dass eine nur'noch 
lose Ankopplung besteht. ► ' 



0 



Wahrend es in einer besonders bevorzugten' Variante der Erfin- 
dung moglich ist, die fiir eine XPP-Einheit bekannte CT (bzw. • 
CM; 'Konfigurationsmanager bzw. Konfigurationstabelle) zu ver- 
wenden, um sowohl das Konfigurieren eines oder mehrerer, auch 
hierarchisch mit mehreren CTs angeordneter XPP-Felder und 
5 gleichzeitig eines oder mehrerer Sequenziell-CPUs, dort quasi 
als Hyperthreading-Hardwareverwaltung zu verwenden, was den ' 
inharenten Vorteil hat, daJi bekannte Technologien wie FILMO 
usw. fur die hardwareunterstutzte Verwaltung beim Hype.rthrea- 
• ding einsetzbar werden, 1st es alternativ und/oder, insbeson- 
dere in hierarchischer Anordnung, zusatzlich moglich, dass 
ein Datenverarbeitungslogikzellenf eld wie eine. XPP Konfigura- 
tionen vom OpCode-Fetcher einer Sequenziell-CPU- tiber das Ko- 
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■prozessor-Interface erhalt. Dies' fiihrt dap, daiJ von der Se- 
quenziell-CPU und/oder einer anderen XPP ein Aufruf instanti- 
tert werden .kann, der zu einer Datenabarbeitung aiif der XPP 
ftthrt. Die XPP wird dabei dann z. B. Uber die beschriebene 
Cache-Ankopplung Und/oder- mittels LOAD- und/oder STOPE- ' 
Konfigurationen, die Adressgeneratoren ftlr Laden und/oder 
Wegschreiben von Daten im XPP- bzw. Datenverarbeitungslo- 
gikzellenfeld vorsehen,- im Dat.enaustausch gehalten. Mit ande- 
ren Worten" wird eine Koprozessor-artige Ankopplung eines Da- 
tenverarbeitungslogikzellenfeldes moglich, wahrend- gleichzei- 
tig ein datenstromartiges Datenladen durch " Cache- und/oder . 
I/O-Port-Kopplung erfolgt. 

Es sei erwahnt, daJ3 die Kdprozessor-Ankopplung, d. h. die An- 
15 • kopplung des Datenverarbeitungslogikzellefffeldes typisch dazu 
fUhiren wird, daii das Scheduling auch fur dieses Logikzellen- • 
feld auf der Sequenziell-CPU oder einer dieser Obergeordneten 
• Schedulereinheit bzw. 'einem entsprechenden Schedulermittel 
erfolgen wird. In einem solchen. Fall fihdet praktisch . die 
Threading-Kontrolle und -verwaltung auf dem Scheduler bzw. . 
der Sequenziell-CPU statt. Obwohl dies per se moglich 1st, 
wird dies, zumindest bei einfachster Implementierung der' Er- 
findung, nicht zwingend der Fall sein. Vielmehr kann eine 
Verwendung, des Datenverarbeitungslogikzellenfeldes durch Auf- 
5' ruf in herkSmmiicher Weise wie bei einem Standard-Koprozessor 
etwa bei 8086/8087-Kombinationen erfolgen. 

Welter sei erwahnt, dafi es in einer besonders bevorzugten Va- 
riante, unabhangig von der Art der Konfiguration, sei e's uber 
•das Koprozessor-lnterface, den als Scheduler mitdienenden 
. Konfiguratipnsmanager (CT) der -XPP bzw. des Datenverarbei- 
tungslogikzellenfeldes oder dergleichen oder • auf andere Wei- 
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se, moglich 1st, im'bzw. unraittelbar am Datenverafbeitungslo- 
gikzellenfeld bzw. unter Verwaltung des Datenverarbeitungslo- 
gikzellenfeldes Speicher, insbesondere interne Speicher, ins- 
besondere bei der XPP-Architektur, wie sie'aus den diversen 
5 Voranmeldungen und den Veroffentlichungen des Anmelders be- 
kannt 1st, RAM-PAEs, Oder', andere entsprechend verwaltete Oder 
interne Speicher wie ein Vektorregister anzusprechen, d. " h.' 
die viber die LOAD-Konf iguration . eingeladenen Datenmengen vek- 
torartig wie in Vektorregistern in die internen Speicher ab- 
10 zulegen, dann,. nach .Umkonf igurief en der XPP bzw, des Daten- 
. verarbeitungslogikzellenf eldes, also Oberschreiben bzw. Nach- 

laden. und/oder Aktiviereri eirier neuen Konf iguration, die die 
• eigentliche Verarbeitung der Daten durchfuhrt (in diesem- 2u- 
.'sairanenhang sei-darauf hingewiesen, dafi fUr eine solche Verar- 
15 ' beitungskonfiguration auch Bezug genorameri-werden .kann auf ei- 
ne Mehrzahl.von Konfigurationen, die.z. B. im Wave-Modus 
und/oder sequenziell nacheinander abzuarbeiten. sind) zuzu- 
greifen .wie bei einem Vektorregister und dann die dabei er- ■ 
haltenen Ergebnisse und/oder Zwischenergebnisse wiederum in 
20 die internen oder uber die XPP wie interne Speicher verwalte- 
ten externen Speicher, urn .dort diese Ergebnisse abzulegen. 
Die so vektorregisterartig mit- Verarbeitungsergebnissen be- 
schriebenen Speichermittel unter XPP-Zugrif f sind dann, nach 
Rekonfigurieren der Verarbeitungskonfiguration durch Laden 
25 der STORE-Konfiguration in geeigneter Weise weggeschrieben, 
was wiederum datenstromartig geschieht, sei es uber den 1/0- 
Port direkt in externe Speicherbereiche und/oder, wie beson-. 
ders bevorzugt, in Cache-Speicherbereiche, auf welche dann zu 
einem spateren Zeitpunkt die Sequenziell-CPU und/oder andere 
30 Konfigurationen auf der zuvor die Daten erzeugt habenden XPP 
. oder e.iner anderen entsprechenden Datenverarbeitungselnhe.it 
zugreifen kSnnen. 
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Eine besonders bevorzugte Variante besteht .darin, zumindest 
fur bestimmte Datenverarbeitungsergebnisse und/oder Zwischeh 
ergebnisse als Speicher- bzw. Vektorregistermittel, in wel- 
chem bzw. welches die erhaltenen Daten 'abzulegen sind, nicht 
einen iriternen Speicher zu benutzen, in welchen Daten uber 
eine STORErKonf iguratibn in den Cache- oder einen anderen Be : 
reich, auf welchen die Sequenziell-CPU oder eine andere Pa-, 
tenverarbeitungseinheit zugreifen konnen-, wegzuschreiben 
sind, sondern statt dessen unmittelbar ; die Ergebnisse wegzu- 
schreiben in entsprechende, insbesondere zugrif f sreservierte 
Cacheberedche, die insbesondere Slice-artig organisiert sein 
konnen. Dies kann gegebenenf alls .den Nachteil einer grdileren 
Latenz haben, insbesondere wenn die Wege zwischen der XPP- 
oder Datehverarbeitungslogikzellenfeldeiriheit und dern' Cache 
so lang sind, daB die Signallauf zeiten ins Gewicht fallen, 
fUhrt aber dazu, dafl gegebenenf alls .keine weitere STORE- 
Konfiguration benotigt wird. Es sei im tibrigen erwahnt, daB 
eirie derartige Abspeicherung von Daten in Ca'che-Bereiche ei- 
nerselts, wie vorstehend besqhrieben, dadurch moglich istv 
daJJ der Speicher, in welchen geschrieben wird, physikalisch • 
nahe beim- Cache-Controller liegt und als Cache ausgestaltet 
ist; dass aber alternativ und/oder zusatzlich auch die M5g- 
lichkeit besteht, einen Teil eiries XPP-Speicherbereiches/ 
XPP-internen Speichers oder dergleichen, insbesondere bei RAM 
uber PAEs unter die Verwaltung eines oder, .nacheinander meh-' 
rerer Cache-Speichercontroller zu stellen. Dies hat dann Vor- 
teile, wenn die Latenz beim Abspeichern der Verarbeitungs er- 
gebnisse, welche innerhalb des Datenverarbeitungslogikzellen- 
feldes bestimmt werden, gering gehalten werden soil, wahrend 
die Latenz beim Zugrif f auf .den dann riur noch als „Quasi- 
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Cache" dienenden Speicherbereich d.urch. andere Einheiten nicht 
oder nicht signifikant ins Gewicht failt. 

Es sei im Ubrigen erwahnt, dafl auch eine Ausgestaltung derart 
. 5 moglich ist, daJi der Cache-Controller einer herkommlichen Se- 
quenziell-CPU einen Speicherbereich als Cache anspricht, der, 
ohhe dem Datenaustausch 'rait dem Datenverarbeitungslogikzel- 
lenfeld zu dienen, auf und/oder bei diesem physikalisch 
liegt. Dies hat den Vorteil, dafi dann, wenn Anwendungen auf 
10 dem Datenverarbeitungslogikzellenfeld laufen, die einen al- 
lenfalls geringen lokalen Speicherbedarf haben, und/oder wenn 
auch nur wenige weitere Konfigurationen bezogen auf die zur 
Verftigung stehenden Speichermengen benetigt werden, diese ei- 
ner oder mehreren Sequenziell-CPUs als' Cache zur Verftigung 
15 stehen konnen. Es sei erwahnt,' dafi dann d«Tr Cache-Controller, 
ftir die Verwaltung eines Cache-Bereiches mit dynamischem Urn- 
fang, d. h. variierender Grofie ausgebildet sein kann und 
wird. Eine dynamsiche Cache-Umfangsverwaltung bzw. Cache- 
. Umfangsverwaltungsmittel 'fur die dynamische Cache-Verwaltung 
20 wirdtypisch die Arbeitslast auf der Sequenziell-CPU und/oder 
dem batenverarbeitungslogikzellenfeld berucksichtigen. Mit 
anderen Worten kann beispiel'sweise analysiert werden, wie 
viele NOPs in einer gegebenen Zeiteinheit auf der Sequenzi- 
ell-CPU vorliege'n und/oder wie viele Konfigurationen im XPP- 
25 Feld in dafur vorgesehenen .Speicherbe'reichen vorabgelegt sein 
sollen,um eine schnelle Umkonfiguration, sei es im Wege ei- 
ner. Wellenrekonfiguration oder auf andere Weise. Die hiermit 
offenbarte dynamische Cachegrosse ist dabei insbesondere be- 
vorzugt lauf zeitdynamisch, d. h . der Chacecontroller verwal- 
tet jeweils eine aktuelle Cachegrosse, die sich von Takt zu 
Takt oder Taktgruppe andern kann. Es sei im ubrigen darauf 
hingewiesen, daB die Zugriff sverwaltung eines XPP- bzw. Da- 
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tenverarbeitungslogikzellenfeldes mit Zugriff als interner 
• 'Speicher wie bei einem Vektorregister und als Cache-artiger 
Speicher .fur den externen Zugriff was die Speicherzugrif f e 
angehf bereits beschrieben wurde in der DE 196 54 595 und der 
5 PCT/DE 97/03013 (PACT03) . Die genannten Schriften sind durch 
. Bezugnahme zu Of fenbarungszwecken hierrait vollumf anglich ein- 
gegliedert. ■ 

Vorstehend wurde auf Datenverarbeituhgslogikzellenfelder Be- 
10 zug genoimnen, die insbesondere zur Laufzeit rekonfigurierbar 
• sind. Es wurde diskutiert, dass bei diesen eine Konfigurati- 
onsverwaltungseinheit (CT bzw. CN) vorgesehen werden kann. 
Aus den diversen, zu Of fenbarungszwecken unter Bezu'g genomme- 
nen Schutzrecht'en des Anmelders. sbwie seinen weiteren VerSf- 
15 fentlichungen ist die Verwaltung von KonfiTgurationen per se 
bekannt. Es sei nun explizit darauf hingewiesen, dass derar- 
tige.Einheiten und deren Wirkungswelse, mit der insbesondere 
unabhangig von Ankopplungen an Sequenziell-CPUs etc. aktuell • 
noch nicht : benStigte Konfigurationen vorladbar sind, auch 
20 sehr gut nutzbar sind, urn im Multitaskingbetrieb und/oder bei ' 
Hyperthreading und/oder Multithreading einen Task- bezie- 
hungsweise einen Thread- und/oder Hyperthreadwechsel zu be- 
wirken. Dazu kann ausgenOtzt werden, dass wahrend der Lauf- 
zeit eines Threads oder Tasks in die Konfigurat ions speicher 
25 bei einer einzelnen oder einer Gruppe von Zellen des Daten- 
verarbeitungslogikzellenfeldes, also beispielsweise einer PAE 
eines PAE-Feldes (PA) auch Konfigurationen far unterschiedli- 
che Aufgaben,- das heiJJt Tasks oder Threads beziehungsweise 
Hyperthreads geladen werden konnen. Dies fahrt dann dazu, 
30 dass bei einer Blockade eines Tasks oder Threads/ etwa wenn ' 
' . auf Daten gewartet werden muss, weil diese noch nicht verfug- 
bar sind, sei es, da sie von einer anderen Einheit noch nicht. 
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generiert oder erapfangen wurden, beispielsweise auf Grund von 
Latenzen, sei es, weii eine Ressource derzeit noch durch ei- 
nen anderen Zugriff blockiert ist, dann Konfiguratianen fflr 
eirien anderen Task oder Thread vorladbar und/oder vorgeladen 
5 sind und auf diese gewechselt werden kann, ohne dass der 
Zeitoverhead fur einen Konfigurationswechsel bei der insbe- 
sondere ' schattengeladenen Konfiguration abgewartet .werden 
muss, Wahrend es prinzipiell moglich ist, diese Technik auch 
dann zu verwenden, wenn innerhalb eines Tasks die wahrschein- 
10 lichste Weiterftihfung vorhergesagt wird und eine Vorhersage 
nicht zutrifft (prediction miss), wird diese' Art des Betriebs 
bei vorhersagefreiem Betrieb bevorzugt sein. Bei Verwendung 
mit einer rein sequentiellen CPU und/oder mehreren rein se- 
quentiellen CPUs* wird somit durch die Zuschaltung eines Kon- ■ 
15 figurationsmanagers eine Hyperthreadingve'rValtungshardware 
realisiert.' Verwiesen sei hinsichtlich dessen insbesondere 
auf PACT10 (DE 198 07 872.2, WO 99/44147, WO 99/44120). Dabei 
kann es als ausreichend erachtet werden,- insbesondere dann, 
wenn nur fur eine CPU und/oder ei;iige wenige Sequenziell-CPUs 
eine Hyperthreadingverwaltung gewxinscht ist, auf bestimmte, 
in den speziell'unter Bezug genommenen Sctiutzrechten be- 
schriebene Teilschaltungen wie den FILMO zu verzichten. Ins- 
besondere wird damit die Verwendung der dort beschriebenen 
•Konfigurationsmanager mit und/oder ohne FILMO fur die Hyper- 
threadingverwaltung fur eine und/oder mehrere rein sequenzi- 
ell arbeitende CPUs mit oder ohne Ankopplung an eine XPP oder 
ein anderes Datenverarbeitungslogikzellenf eld offenbart und 
hiermit fur sich beansprucht. Es wird'hierin eine * fur jsich 
erfinderische Besonderheit gesehen. *Es sei im Obrigen er- 
wahnt, dass eine Vielzahl von CPUs realisiert werden kann mit 
den bekannten Techniken, wie. sie insbesondere aus PACT31 (DE 
102 12 621.6-53, PCT/EP 02/10572) bekannt sind, • bei welchen- 
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innerhalb .eines Arrays eine oder mehrere Sequenziell-CPUs 
aufgebaut werden unter Ausnutzung eines oder 'mehrerer Spei- 
cherbereiche insbesondere im Datenverarbeitungslogikzellen- 
feld fur den Aufbau der sequenziellen CPU, insbesondere als. 
5 Befehls- und/oder Datenregister. .Auch sei darauf yerwiesen, 
dass bereits in fruheren Anmeldungen wie .PACT02, (DE 196 51 
075.9-53,. WO 98/26356), PACT 04 (DE 196" 54 846.2-53, WO 
98/29952), PACT08, (DE 197 04.728.9, WO 98/35299). of fenbart- 
wurde, wie Sequenzer mit Ring- und/oder Wahlfrei-Zugrif f- 
10 Speichern aufgebaut werden konnen. 

Es sei darauf hingewiesen, dass ein Task- beziehungsweise 
Thread- und/oder Hyperthreadwechsel unter Verwendung der be- 
kannten CT-Technologie derart erfolgen kann und bevorzugt 
15 auch erfolgen wird, dass einei^per se bekannten, Software- 

implementierten Betriebssystem-Sche^uler oder dergleichen von 
der CT Perf ormance-Scheiben und/oder Zeitscheiben zugeo'rdnet 
werden, wahrend welchen bestimmt wird, von welchen Tasks oder 
Threads nachfolgend welche Teile per se, unterstellt, dass ■ 
Ressourcen frei sind, abzuarbeiten sind. Dazu sei ein- Bei- 
spiel wie folgt gegeben: Bunichst soil fUr einen ersten Task 
eine Adressfolge generiert wetden, geinafl welcher wahrend der 
AusfUhriingeiner LOAD-Konfiguration Daten .aus .einem Cache- 
Speicher, an dem ein Datenverarbeitungslogikzellenfeld in der 
25 beschriebenen Weise angekoppelt ist, ge'laden werden .sollen. 
Sobald diese Daten vorliegen, kann mit der Abarbeitung einer 
zweiten, der eigentlichen Datenverarbeitungskonfiguration, 
begonnen werden. Auch diese kann vorgeladen werden, da sicher 
feststeht, dass diese Konfiguration, sofern.keine Interrupts 
30 oder dergleichen einen yollstandigen Taskwechsel erzwingen, 

i auszuftihren ist. In herkSmmlichen Prozessoren ist nun das 
' ^Problem des sogenannten Cache-Miss bekannt, bei- dem die Daten 
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zwar angefordert werden, aber nicht ira Cache fur den Ladezu- 
griff bereit liegen. Tritt ein solcher Fall in einer Kopplung 
gemafi der vorliegenden Erfindung auf, kann bevorzugt auf ei- 
nen anderen Thread, Hypefthread und/oder Task gewechselt wer- 
5 den, der insbesondere zuvor von'dem insbesondere softwareim- 
plementierten Betriebssystem-Scheduler und/oder einer anderen 
hard- und/oder- softwareimplementierten,, entsprechend wirken- ' 
den Einheit fur eine nachstm<3gliqhe Ausfuhrung bestimmt wurde 
und demgemafl bevorzugt vorab in einen der verfilgbaren Konfi- 
10 'gurationsspeicher des Datenverarbeitungslogikzellenfeldes 

insbesondere im Hintergrund wahrend der Ausfuhrung einer an- 
deren Konf iguration, beispielsweise der LOAD-Konf iguration, 
welche das Laden jener Daten, auf die nun gewartet wird, be- 
wirkt hat, geladen wurde. Das fur die Vorabkonf iguration- un- 
15 gestdrt von der tatsachlichen Verschalturig der insbesondere 
grobgranular ausgebildeten -Datenverarbeitungslogikzellen des * 
Datenyerarbeitungslogikzellenfeldes separate Konfigurations- 
leitungen von der konfigurierenden Einheit zu den jeweiligen 
Zellen direkt und/oder uber $eeignete Bussysteme gefuhrt sein 
20 konnen wie per se im Stand der Techn'ik bekannt, sei hier noch 
einmal explizit erwahnt,. da diese' Ausbildung hier besonders 
bevarzugf ist, um ein ungestSrtes, Vorabkonf igurieren ohne 
Storung einer anderen, gerade laufenden Konfiguration zu er- 
moglichen. Wenn dann die Konfiguration, auf welche wahrend 
.5 beziehungsweise auf Grund des Task-Thread- und/oder Hyper- 
threadwechsels gewechselt wurde, abgearbeitet wurde, und 
zwar, bei bevorzugten nicht teilbareri, ununterbrechbaren und 
somit quasi atomaren Konfigurationen bis zum Ende abgeabeitet 
wurde, wird teilweise eine weitere andere Konfiguration wie 
0 vorbestimmt durch die entsprechenden Scheduler, insbesondere 
, den betriebssystemartigen Scheduler festgelegt, abgearbeitet ' 
und/oder jene Konfiguration, zu welcher zuvor die zugehorige 
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LOAD-Konfiguration ausgefiihrt wurde. Vor der Ausftthrung einer 
Verarbeitungskonfiguration, zu welcher zuvor eine LOAD- 
Konfiguration ausgefuhrt wurde, kann insbesondere abgetestet 
werden, ob mittlerweile die ehtsprechenden Daten in das Array 
5 eingestromt sind, also die Latenzzeit, wie sie typisch auf- 
tritt, verstrichen ist und/oder die Daten tatsachlich vorlie- • 
gen • 

Mit anderen Worten werden dann Latenzzeiten, wenn sie auftre-. 
10 ten, well z. B. Konfigurationen' noch nicht einkonf iguriert 

sind, Daten noch nicht geladen und/oder Daten noch nicht weg- 
geschrieben wurden, tiberbrdckt und/oder verdeckt, indem 
Threads, Hyperthreads und/oder Tasks ausgefuhrt werden, wel- 
che' schon vorkonf iguriert sirid und welche mit Daten arbelten, 
15 die schon verfttgbar sind .beziehungsweise die an Ressourcen 
weggeschrieben werden konnen, die ftir das Wegschreiben be- 
reits zur Verfiigung stehen. Auf diese Weise werden Latenzzei- 
ten weitgehend Uberdeckt und es wird, eine hinreichende An- 
zahl von per se auszufuhrenden Threads, Hyperthreads und/oder 
20 Tasks* unterstellt, eine praktisch 100%-ige Ausnutzung des Da- 
tenverarbeitungslogikzellenfeldes erreicht. • ' 



Mit dembeschriebenen System beziiglich Datenstrom-Fahigkeit 
bei gleichzeitiger Ankopplung an eine Sequenziell-CPU und/ 
25 oder beziiglich der Ankopplung .eines XPP-Array beziehungsweise 
Datenverarbe.itungslogikzellenfeldes und simultan einer Se- 
quenziell-CPU an eine geeignete Schedulereinheit wie einen 
Konfigurationsmanager oder dergleichen lassen sich insbeson-' 
dere ohne weiteres. echtzeitfahige Systeme realisieren. Zur 
30 Echtzeitfahigkeit muss gewahrleistet sein, dass auf eintref- 
. fende Daten beziehungsweise Interrupts, die insbesondere das 
Dateneintreffen signalisieren, innerhalb einer in keinem Fall 
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zu iiberschreitenden Maximalzeit reagiert werden kann. Dies 
kann beispielsweise geschehen durch einen Taskwechsel auf ei- 
nen Interrupt hin und/oder, beispielsweise bei priorisierten 
Interrupts, durch Festlegung, dass ein gegebener Interrupt 
momentan zu ignorieren ist, wobei auch .dies innerhalb einer 
bestimmten Zeit festzulegen ist. Ein Taskwechsel bei derarti- 
gen echtzeitf ahigen Systeraen wird typisch auf drei Arten er- 
folgen. konnen, namlich entweder dann, wenn ein Task eine. be- 
stimmte Zeit gSlaufen ist (Watch-dog-Prinzip) , bei Nichtzur- 
verfugungstehen einer Ressource, sei es durch deren Blockade 
durch anderen Zugriff oder aufgrund von Latenzen beira Zugri'ff 
darauf, insbesondere in schreibender und/oder lesender Weise, 
das heilit bei Latenzen .von Datenzugrif fen und/oder beim Auf- 
treten-von Interrupts. ' . 

Mit der vorliegenden Erfindung kann die Echtzeitf ahigkeit 'ei- 
nes Datenverarbeitungslogikzelleftfeldes nunmehr erreicht wer- 
den, indem eine oder mehreire von drei moglichen Varianten im- 
plementiert wird. 



.Eine erste Variant's' besteht darin, dass innerhalb einer. von 
dem Scheduler beziehungsweise der CT ansprechbaren Ressource 
ein Wechsel zur Abarbeitung beispielsweise eines Interrupts 
erfolgt. Sofern die Ansprechzeiten auf Interrupts oder andere 
25 Anforderungen so grofi sind, dass wahrend dieser Zeit eine 
Konfiguration ohne Unterbrechung noch abgearbeitet werden 
kann, ist t dies unkritisch, zumal wahrend der Abarbeitung der * 
aktuell laufenden Konfiguration auf jener. Ressource, .die far 
die Abarbeitung des. Interrupts zu wechseln ist, eine Konfigu- 
ration zur Interruptabarbeitung vorgeladen werden kann. Die 
Auswahl der vorabzuladenden Interrupt-bearbeitenden Konfigu- 
ration ist z. B. durch die CT durchzufuhren. Es 1st moglich, 
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die Laufzeit der Konf iguration auf der fur 'die Interruptbear- 

» « 

beitung freizugebenden bzw. zu wechselnden Ressource zu be- 
grenzen. Verwiesen wird'dazu auf PACT29/PCT (PCT/DE03/0.00942) . 

5 Bei Systemen, die schneller , auf 'interrupts reagieren miissen, 
kann es beyorzugt ' sein, eine einzelne Ressource, also. bei- 
spielsweise eine separate XPP-Einheit und/oder Teile eines 
.XPP-Feldes fttr eine solche Abarbeitung zu reservieren. Wenn 
dann ein schnell abzuarbeit'ender Interrupt auftritt,, kann 
10 entweder eine fiir besonders . kritische Interrupts schon vorab 
vorgeladene Konf iguration abgearbeitet werdeh oder- es wird 
sofort mi-t dem Laden einer Interrupt behandelnden {Configura- 
tion in die reservierte Ressource begonnen.. Eine AuSwahl der 
•jeweils fur den entsprechenden .Interrupt erf orderlichen Kon- 
15 figuration ist durch entsprechende Triggerung, Waveabarbei- 
tung usw. mSglich.- 

Es sei im Obrigen erwahnt, dass es mit den schon beschriebe- 
nen Methoden ohne weiteres mdglich ist, eine instantane Reak- 
20 tion auf einen Interrupt zu erhalten, indem Uber die Verwen- 
dung von LOAD/STORE-Konf igurationen eine Code-Reentranz er- 
reichtwird. Hierbei wird'nach jeder datenbearbeitenden Kon- 

► figuration Oder .zu gegebenen Zeiten, beispielsweise alle funf 
Oder zehn Konf igurationen eine STORE-Konf iguration' ausgefuhrt 
25 und dann eine LOAD-Konfiguration unter Zugriff auf jene Spei- 
cherbereiche ausgefuhrt, in die zuvor ..weggeschrieben wurde. ■ 
Wenn sichergestellt wird, dass. die von der STORE-Konf igura- 
tion benutzten Speicherbereiche so lange iinberuhrt bleiben, 
bis durch Fortschreiten im Task eine" weitere Konf iguration 
30 * samtliche relevanten Inf ormationen (Zustande, Daten) wegge- 
schrieben hat, ist sichergestellt, dass bei Wiederladen, also 
Wiedereintritt in eine zuvor bereits begonnene, • aber nicht zu 
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Ende geftihrte Konf iguration oder Konf igurat ions kette wieder 
dieselben Bedingungen erhalten werden. Eine solche Zwischen- 
' schaltung von LOAD/STORE-Kbnf iguratiorien unter- simultanem 
Sc'hutz von .noch nicht veralteten STORE-Speicherbereichen 
5 lasst sich autoraatisch ohne zusatzlichen Programmieraufwand 
sehr einfach generieren, ' z . B. von einem Compiler. Dort kann 
die Ressourcenreservierung gegebenenf alls- vorteilhaft sein. 
Das bei der Ressourcenreservierung und/oder in anderen Fallen 
auf zumindest eine Menge hochpriorisierter Interrupts ciurch 
10 Vorabladen von bestimiriten- Konf igurationen reagiert werden • . 
kann, sei noch einmal' erwahnt. 

Eine weitere, besonders bevorzugte Variante der Reaktion auf 
Interrupts besteht darin, wenn zumindest eine der ansprechba- 
15 ten Ressourcen eine Sequenziell-CPU. ist, darin, auf dieser 

eine Interrupt-Routine abzuarbeiten, in welcher wiederum Code 
far" das Datehverarbeitungslogikzellenfeld verboten ist. Mit ' 
anderen Worten wird eine Interrupt-Routine ausschliefllich auf 
einer Sequenzieli-CPU abgearbeitet, ohne da'ss XPP-Datenverar- 
20 . beitungsschritte aufgerufen werden. Dies garantiert, dass der 
Verarbeitungsvorgang auf dera Datenverarbeitiingslogikzellen- 
f eld nicht zu unterbrechen ist und es kann dann eine Wei- . 
k ' terabarbeitung auf dies em Datenverarbeitungslogikzellenfeld 
■ nach einem Tas.kswitch erfolgen. Obwohl damit die eigentliche 
25 Interrupt-Routine keinen XPP-Code besitzt, kann dennoch dafiir 
gesorgt werden, , dass auf einen . Interrupt hin zu einem spate- 
•ren, nicht mehr echtzeitrelevanten Zeitpunkt mit der XPP auf 
einen durch einen Interrupt' und/oder eine Echtzeitanforderung 
erfassten Zustand und/oder Daten unter Verwendung des Daten- 
30 verarbeitungslogikzellenfeldes reagiert werden kann. 
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Titel: 



Verfahren und Vorrichtung 
far die Datenverarbeitting 



Patentanspruche 



Datenverarbeitungsvorrichtung mit einem Datenverarbeitungslo- 
gikzellenfeld und zumindest einer Sequenziell-CPU, dadurch 
gekennzeichnet, dass eine Anko'pplung der Sequenziell-CPU und 
•des Datenverarbeitungslogikzeilenfeldes zura" Datenaustausch in 
insbesondere blockweiser Form durch zu einem Cache-Speicher 
fuhrende Leitungen mSglich ist. 
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